20 research outputs found

    Representation and Metric Learning Advances for Deep Neural Network Face and Speaker Biometric Systems

    Get PDF
    El aumento del uso de dispositivos tecnol贸gicos y sistemas de reconocimiento biom茅trico en la vida cotidiana de las personas ha motivado un gran inter茅s en la investigaci贸n y el desarrollo de sistemas eficaces y robustos. Sin embargo, todav铆a existen algunos retos que resolver en estos sistemas cuando se emplean redes neuronales profundas. Por esta raz贸n, esta tesis propone diferentes enfoques para abordar estas cuestiones.En primer lugar, hemos analizado el efecto de introducir las arquitecturas de redes neuronales profundas m谩s extendidas para desarrollar sistemas para tareas de verificaci贸n de caras y locutores dependientes del texto. En este an谩lisis, hemos observado que las redes neuronales profundas del estado del arte establecidas para muchas tareas, incluyendo la verificaci贸n de caras, no funcionan de forma eficiente para la verificaci贸n de locutores dependientes del texto. Por lo tanto, hemos realizado un estudio para encontrar la causa de este pobre rendimiento y hemos notado que este problema se debe al uso de la capa de promediado global como mecanismo de agrupaci贸n en las arquitecturas de redes neuronales profundas. Dado que el orden de la informaci贸n fon茅tica es relevante en la tarea de verificaci贸n del locutor dependiente del texto, si se emplea una agrupaci贸n de promediado global, este orden se descuida y los resultados obtenidos para las m茅tricas de rendimiento son demasiado altos. Por lo tanto, el primer enfoque propuesto en esta tesis es un mecanismo de alineamiento que se utiliza para reemplazar el uso del promediado global como mecanismo de agrupaci贸n. Este mecanismo de alineamiento permite mantener la estructura temporal y codificar la frase y la identidad del locutor en un supervector. Como mecanismo de alineamiento, se pueden utilizar diferentes tipos de planteamientos como los modelos ocultos de Markov o los modelos de mezcla de Gaussianas. Adem谩s, durante el desarrollo de este mecanismo, tambi茅n observamos que la falta de bases de datos de entrenamiento m谩s grandes es otro problema importante para crear estos sistemas. Por lo tanto, tambi茅n hemos introducido una nueva filosof铆a de arquitectura basada en el enfoque de destilaci贸n de conocimiento. Esta arquitectura es conocida como arquitectura profesor-estudiante y proporciona robustez a los sistemas durante el proceso de entrenamiento y contra un posible sobreajuste debido a la falta de datos. En esta parte, se propone otro enfoque alternativo para centrarse en los instantes relevantes de la secuencia y mantener la informaci贸n fon茅tica, dicho enfoque consiste en la auto-atenci贸n multi-cabezal. La arquitectura propuesta para utilizar las capas de auto-atenci贸n multi-cabezal tambi茅n introduce incrustaciones fon茅ticas y capas de memoria para mejorar la discriminaci贸n entre locutores y expresiones. Adem谩s, para completar la arquitectura con las t茅cnicas anteriores, se ha incorporado otro enfoque en el que se han introducido dos vectores aprendibles que se denominan tokens de clase y de destilaci贸n. Utilizando estos tokens durante el entrenamiento, se mantiene la informaci贸n temporal y se codifica en los tokens, de manera que al final se obtiene un descriptor global de los enunciados similar al supervector. Adem谩s de los enfoques anteriores para obtener representaciones robustas, la otra parte principal de esta tesis se ha centrado en la introducci贸n de nuevas funciones de p茅rdida para entrenar arquitecturas de redes neuronales profundas. Las funciones de p茅rdida tradicionales han proporcionado resultados razonablemente buenos para muchas tareas, pero no suelen estar dise帽adas para optimizar la tarea objetivo. Por esta raz贸n, hemos propuesto varias funciones de p茅rdida nuevas como objetivo para entrenar arquitecturas de redes neuronales profundas que se basan en las m茅tricas finales de verificaci贸n. El primer enfoque desarrollado para esta parte se inspira en el 脕rea Bajo la Curva ROC. As铆 que hemos presentado una aproximaci贸n diferenciable de esta m茅trica denominada aAUC loss para entrenar con 茅xito una red neuronal de tripletes como back-end. Sin embargo, la selecci贸n de los datos de entrenamiento tiene que ser cuidadosamente realizada para llevar a cabo este back-end, por lo que esto supone un alto coste computacional. Por lo tanto, hemos desarrollado varios enfoques para aprovechar el entrenamiento con una funci贸n de p茅rdida orientada a la tarea objetivo pero manteniendo la eficiencia y velocidad del entrenamiento multiclase. Para implementar estos enfoques, se han empleado como objetivo de entrenamiento la aproximaci贸n diferenciable de las siguientes m茅tricas de verificaci贸n, la funci贸n de coste de detecci贸n (aDCF) y el coste de la relaci贸n de log-verosimilitud (CLLR). Al optimizar las arquitecturas de redes neuronales profundas para minimizar estas funciones de p茅rdida, el sistema aprende a reducir los errores en las decisiones y las puntuaciones producidas. El uso de estos enfoques tambi茅n ha demostrado una mejor capacidad para aprender representaciones m谩s generales que el entrenamiento con otras funciones de p茅rdida tradicionales. Por 煤ltimo, tambi茅n hemos propuesto un nuevo back-end sencillo que emplea la informaci贸n aprendida por la matriz de la 煤ltima capa de la arquitectura de redes neuronales profundas durante el entrenamiento con la aDCF loss. Utilizando la matriz de esta 煤ltima capa, se entrena un modelo de inscripci贸n con un vector aprendible para cada identidad de inscripci贸n para realizar el proceso de verificaci贸n.<br /

    Subspace Gaussian Mixture Models for Language Identification and Dysarthric Speech Intelligibility Assessment

    Get PDF
    En esta Tesis se ha investigado la aplicaci贸n de t茅cnicas de modelado de subespacios de mezclas de Gaussianas en dos problemas relacionados con las tecnolog铆as del habla, como son la identificaci贸n autom谩tica de idioma (LID, por sus siglas en ingl茅s) y la evaluaci贸n autom谩tica de inteligibilidad en el habla de personas con disartria. Una de las t茅cnicas m谩s importantes estudiadas es el an谩lisis factorial conjunto (JFA, por sus siglas en ingl茅s). JFA es, en esencia, un modelo de mezclas de Gaussianas en el que la media de cada componente se expresa como una suma de factores de dimensi贸n reducida, y donde cada factor representa una contribuci贸n diferente a la se帽al de audio. Esta factorizaci贸n nos permite compensar nuestros modelos frente a contribuciones indeseadas presentes en la se帽al, como la informaci贸n de canal. JFA se ha investigado como clasficador y como extractor de par谩metros. En esta 煤ltima aproximaci贸n se modela un solo factor que representa todas las contribuciones presentes en la se帽al. Los puntos en este subespacio se denominan i-Vectors. As铆, un i-Vector es un vector de baja dimensi贸n que representa una grabaci贸n de audio. Los i-Vectors han resultado ser muy 煤tiles como vector de caracter铆sticas para representar se帽ales en diferentes problemas relacionados con el aprendizaje de m谩quinas. En relaci贸n al problema de LID, se han investigado dos sistemas diferentes de acuerdo al tipo de informaci贸n extra铆da de la se帽al. En el primero, la se帽al se parametriza en vectores ac煤sticos con informaci贸n espectral a corto plazo. En este caso, observamos mejoras de hasta un 50% con el sistema basado en i-Vectors respecto al sistema que utilizaba JFA como clasificador. Se comprob贸 que el subespacio de canal del modelo JFA tambi茅n conten铆a informaci贸n del idioma, mientras que con los i-Vectors no se descarta ning煤n tipo de informaci贸n, y adem谩s, son 煤tiles para mitigar diferencias entre los datos de entrenamiento y de evaluaci贸n. En la fase de clasificaci贸n, los i-Vectors de cada idioma se modelaron con una distribuci贸n Gaussiana en la que la matriz de covarianza era com煤n para todos. Este m茅todo es simple y r谩pido, y no requiere de ning煤n post-procesado de los i-Vectors. En el segundo sistema, se introdujo el uso de informaci贸n pros贸dica y form谩ntica en un sistema de LID basado en i-Vectors. La precisi贸n de 茅ste estaba por debajo de la del sistema ac煤stico. Sin embargo, los dos sistemas son complementarios, y se obtuvo hasta un 20% de mejora con la fusi贸n de los dos respecto al sistema ac煤stico solo. Tras los buenos resultados obtenidos para LID, y dado que, te贸ricamente, los i-Vectors capturan toda la informaci贸n presente en la se帽al, decidimos usarlos para la evaluar de manera autom谩tica la inteligibilidad en el habla de personas con disartria. Los logopedas est谩n muy interesados en esta tecnolog铆a porque permitir铆a evaluar a sus pacientes de una manera objetiva y consistente. En este caso, los i-Vectors se obtuvieron a partir de informaci贸n espectral a corto plazo de la se帽al, y la inteligibilidad se calcul贸 a partir de los i-Vectors obtenidos para un conjunto de palabras dichas por el locutor evaluado. Comprobamos que los resultados eran mucho mejores si en el entrenamiento del sistema se incorporaban datos de la persona que iba a ser evaluada. No obstante, esta limitaci贸n podr铆a aliviarse utilizando una mayor cantidad de datos para entrenar el sistema.In this Thesis, we investigated how to effciently apply subspace Gaussian mixture modeling techniques onto two speech technology problems, namely automatic spoken language identification (LID) and automatic intelligibility assessment of dysarthric speech. One of the most important of such techniques in this Thesis was joint factor analysis (JFA). JFA is essentially a Gaussian mixture model where the mean of the components is expressed as a sum of low-dimension factors that represent different contributions to the speech signal. This factorization makes it possible to compensate for undesired sources of variability, like the channel. JFA was investigated as final classiffer and as feature extractor. In the latter approach, a single subspace including all sources of variability is trained, and points in this subspace are known as i-Vectors. Thus, one i-Vector is defined as a low-dimension representation of a single utterance, and they are a very powerful feature for different machine learning problems. We have investigated two different LID systems according to the type of features extracted from speech. First, we extracted acoustic features representing short-time spectral information. In this case, we observed relative improvements with i-Vectors with respect to JFA of up to 50%. We realized that the channel subspace in a JFA model also contains language information whereas i-Vectors do not discard any language information, and moreover, they help to reduce mismatches between training and testing data. For classification, we modeled the i-Vectors of each language with a Gaussian distribution with covariance matrix shared among languages. This method is simple and fast, and it worked well without any post-processing. Second, we introduced the use of prosodic and formant information with the i-Vectors system. The performance was below the acoustic system but both were found to be complementary and we obtained up to a 20% relative improvement with the fusion with respect to the acoustic system alone. Given the success in LID and the fact that i-Vectors capture all the information that is present in the data, we decided to use i-Vectors for other tasks, specifically, the assessment of speech intelligibility in speakers with different types of dysarthria. Speech therapists are very interested in this technology because it would allow them to objectively and consistently rate the intelligibility of their patients. In this case, the input features were extracted from short-term spectral information, and the intelligibility was assessed from the i-Vectors calculated from a set of words uttered by the tested speaker. We found that the performance was clearly much better if we had available data for training of the person that would use the application. We think that this limitation could be relaxed if we had larger databases for training. However, the recording process is not easy for people with disabilities, and it is difficult to obtain large datasets of dysarthric speakers open to the research community. Finally, the same system architecture for intelligibility assessment based on i-Vectors was used for predicting the accuracy that an automatic speech recognizer (ASR) system would obtain with dysarthric speakers. The only difference between both was the ground truth label set used for training. Predicting the performance response of an ASR system would increase the confidence of speech therapists in these systems and would diminish health related costs. The results were not as satisfactory as in the previous case, probably because an ASR is a complex system whose accuracy can be very difficult to be predicted only with acoustic information. Nonetheless, we think that we opened a door to an interesting research direction for the two problems

    Sistema de detecci贸n de emociones a partir de secuencias de audio, v铆deo y mapa de profundidad

    Get PDF
    En este proyecto se explican los pasos seguidos para crear un sistema de reconocimiento de emociones mediante secuencias de audio, v铆deo y mapa de profundidad utilizando t茅cnicas de Machine Learning o aprendizaje autom谩tico. Tambi茅n se da una informaci贸n detallada de l

    Paralelizacio虂n del algoritmo de bu虂squeda de un reconocedor automa虂tico de voz

    Get PDF
    El proyecto plantea el estudio de la viabilidad de un reconocedor autom谩tico del habla (RAH) con funciones en paralelo mediante el desarrollo de un prototipo. Los objetivos principales son la paralelizacio虂n de la bu虂squeda de la secuencia de estados (sonidos) ma虂s probable y el ca虂lculo de las verosimilitudes de los datos de entrada (observaciones), explorando las posibilidades que este paralelismo ofrece y viendo el rendimiento que con e虂l puede llegarse a obtener. El desarrollo se lleva a cabo en el lenguaje de programacio虂n C, mientras que las funciones paralelizadas se implementan en GPUs utilizando CUDA, un modelo de programacio虂n adaptado a esta arquitectura, y su extensio虂n para C

    Reconocimiento de secuencias gestuales adquiridas con Kinect utilizando HMMs

    Get PDF
    Kinect es el accesorio de las videoconsolas m谩s modernas que permite jugar a videojuegos usando s贸lo el cuerpo, sin ning煤n tipo de control. Con su conjunto de sensores es posible jugar como en la vida real, pues las siluetas de los jugadores son capturadas por dichos sensores para posteriormente ser emparejadas con un modelo de esqueleto. En este proyecto, se implementa un reconocedor de secuencias gestuales utilizando el sensor Kinect. Con el kit de desarrollo de software liberado por Microsoft, grabamos diferentes movimientos en ficheros de texto creando una base de datos con la que trabajaremos durante el desarrollo del proyecto. En primer lugar, construimos el reconocedor en Matlab. Para ello, es necesario realizar el entrenamiento de los modelos ocultos de Markov (HMMs), obteniendo la secuencia 贸ptima de estados con el algoritmo de Viterbi y reestimando los par谩metros en cada una de las iteraciones (m茅todo de Baum-Welch). Una vez calculados los HMMs, implementamos la funci贸n de reconocimiento obteniendo el gesto que proporcione mayor verosimilitud. El siguiente paso, es implementar el sistema en lenguaje C++ que es el lenguaje de programaci贸n usado en el SDK de Kinect. Por 煤ltimo, se implementa una aplicaci贸n con distintos juegos de identificaci贸n de movimientos cuya base ser谩 el reconocedor construido. Se trata de una herramienta 煤til para los terapeutas que trabajan con ni帽os con movilidad reducida y problemas de interacci贸n. Dispone de varias opciones de configuraci贸n y un apartado de entrenamiento que permite crear HMMs de diferentes movimientos. La aplicaci贸n contiene 4 juegos diferentes: Gestos, Adivinanzas, Frases y Evocaci贸n que podr谩n ayudar a los ni帽os a mejorar su capacidad motora y coordinaci贸n, as铆 como su capacidad de razonamiento al relacionar las distintas im谩genes con sus movimientos

    Dise帽o de algoritmos de clusterizaci贸n para la regularizaci贸n de redes neuronales y aprendizaje de caracter铆sticas relevantes

    Get PDF
    En este trabajo, exploramos t茅cnicas novedosas de 'representation learning'. Analizamos la red de c谩psulas recientemente introducida y sus m茅todos de regularizaci贸n. Presentamos una t茅cnica de visualizaci贸n de informaci贸n en redes neuronales convolucionales en la que superponemos a las activaciones espaciales sus correspondientes campos receptivos. Esta nos permite ver los factores en funci贸n de los cuales nuestra red separa la informaci贸n. Proponemos un nuevo m茅todo de clusterizado para las activaciones de la 煤ltima capa de redes clasificadoras basado en un coste por margen. Demostramos su utilidad como m茅todo para obtener medidas robustas de incertidumbre sobre las decisiones que toma el clasificador. Adoptamos un marco probabil铆stico Bayesiano, proponiendo un algoritmo de autoencoder variacional novedoso. Al condicionar algunas variables latentes con valores discretos, conseguimos captar caracter铆sticas de los datos distribuidas multimodalmente. Mostramos c贸mo este algoritmo permite obtener representaciones m谩s desentrelazadas y de mayor calidad que los propuestos en la literatura de autoencoders variacionales. Proponemos un m茅todo para comparar la fidelidad de modelos generativos, entrenando un clasificador con bases de datos aumentadas con muestras generadas. Validamos experimentalmente que nuestro modelo consigue generar muestras nuevas m谩s informativas que los modelos comparables de la literatura

    Estudio de t茅cnicas de aprendizaje autom谩tico basado en redes neuronales para reconocimiento biom茅trico de personas

    Get PDF
    En este trabajo se plantea la elaboraci贸n de un sistema de reconocimiento biom茅trico de personas basado en redes neuronales profundas que utiliza como caracter铆stica biom茅trica una imagen digital del rostro humano con la que se pueda realizar la tarea de identificaci贸n facial de dicha persona. El problema del reconocimiento facial se puede dividir en cuatro fases principales, la de detecci贸n del rostro dentro de las im谩genes, el preprocesado de dichas im谩genes, la extracci贸n de la informaci贸n m谩s relevante de cada rostro y el reconocimiento de la identidad haciendo uso de dicha informaci贸n relevante. Estas etapas se implementan a lo largo de este trabajo para poder crear un sistema completo de reconocimiento facial. El sistema de reconocimiento facial creado durante este trabajo permite experimentar de manera c贸moda, debido a la modularidad que este sistema presenta, con diversas arquitecturas para los procesos de extracci贸n y reconocimiento, lo que sirve para comprobar las prestaciones del sistema obtenidas con cada arquitectura. As 虂谋 como poder observar la influencia en los resultados de cambiar las bases de datos utilizadas para el entrenamiento de la etapa de extracci贸n de caracter铆sticas

    Desarrollo de un sistema de seguimiento de pitch y detecci贸n de caras en secuencias de v铆deo de bajo coste computacional para su aplicaci贸n en herramientas de asistencia a la logopedia

    Get PDF
    Desarrollo de un sistema de seguimiento de pitch y detecci贸n de caras en secuencias de v铆deo de bajo coste computacional para su aplicaci贸n en herramientas de asistencia a la logopedi

    Dispositivo de interfaz de usuario orientado a ense帽anza del habla por ordenador: caracterizaci贸n ac煤stica y dise帽o e implementaci贸n de aplicaci贸n interactiva

    Get PDF
    El aprendizaje del habla es un proceso considerado natural y sencillo en la especie humana. Sin embargo, es fruto de complejos procesos mentales y de maduraci贸n de vital importancia al tratarse de una de las primeras destrezas sociales adquiridas, base de futuros desarrollos cognitivos, intelectuales y emocionales. Problemas al aprender a hablar pueden suponer futuros retrasos en la educaci贸n, o dificultades en la integraci贸n social de los ni帽os, especialmente en aquellos casos en los que se a帽ade alg煤n grado de discapacidad mental o f铆sica. Esta Tesis de Fin de M谩ster se centra en la caracterizaci贸n de un dispositivo de interfaz de usuario para su utilizaci贸n como herramienta orientada al reconocimiento autom谩tico del habla en entornos pedag贸gicos a trav茅s de aplicaciones inform谩ticas. Para ello se han dise帽ado dos soluciones de software. La primera de ellas se centra en la creaci贸n de una plataforma base sobre la que desarrollar aplicaciones que hagan uso de toda la potencialidad de un dispositivo sensor orientado a la creaci贸n de interfaces naturales de usuario. Esta soluci贸n, adem谩s, ha servido de base para el desarrollo de herramientas y aplicaciones usadas a lo largo del mismo. La segunda es un reconocedor de palabras aisladas con el que evaluar las capacidades de dicho dispositivo en cuanto a sus capacidades de obtenci贸n de se帽ales de audio y el procesado interno que sobre 茅stas realiza y c贸mo afectan a la acci贸n de dicho reconocedor. Para poder llevar a cabo esta caracterizaci贸n se ha creado una base de datos de se帽ales de voz con diferentes locutores, posiciones y opciones de procesado de audio que han servido de base para la obtenci贸n de resultados cuantificables

    Estudio de integraci贸n de clasificadores de rasgos fon茅ticos para la mejora de sistemas de reconocimiento de gran vocabulario

    Get PDF
    En los sistemas de inteligencia ambiental una parte fundamental la constituye el interfaz hombre-m谩quina, y dentro de 茅ste, la interacci贸n oral en ambos sentidos, de la que forman parte los sistemas tanto de reconocimiento autom谩tico como de s铆ntesis de voz. En sistemas complejos la interacci贸n simple por medio de comandos limita las posibilidades de un sistema de inteligencia ambiental, por ello es preciso tener disponibles reconocedores de voz de gran vocabulario. El trabajo de investigaci贸n propuesto tiene como objetivo la mejora de las prestaciones de un reconocedor autom谩tico de voz de gran vocabulario, medidas en tasa de errores de palabra. Para ello la investigaci贸n atender谩 principalmente a la mejora del modelo ac煤stico, dejando el de lenguaje por defecto. Las mejoras propuestas consistir谩n en el uso de clasificadores en una fase previa al procesado de extracci贸n de caracter铆sticas, de forma que la salida de estos clasificadores se pueda concatenar a los vectores de caracter铆sticas utilizados com煤nmente y facilitar el reconocimiento. Los clasificadores estar谩n especializados en la distinci贸n de ciertos fonemas o grupos de fonemas, e incluso aspectos articulatorios o contextuales de la producci贸n de la voz. A trav茅s de la experimentaci贸n con distintas bases de datos elegiremos cual es la opci贸n que nos proporciona mejores resultados. En la extracci贸n de caracter铆sticas haremos uso de varios tipos, como los coeficientes MFCC( Mel Frequency Cepstral Coefficients ), los coeficientes PLP ( predicci贸n lineal perceptual ) o los coeficientes RASTA (Relative Spectral Transform). Para el dise帽o de los clasificadores se ensayar谩n distintas alternativas como redes neuronales, 谩rboles de decisi贸n, maquinas de soporte vectorial (SVMs), mezclas de gaussianas o redes bayesianas. En cuanto a la integraci贸n en el reconocedor, se ensayar谩n tambi茅n distintas alternativas como el uso de distribuciones gaussianas, modelos gr谩ficos o distribuciones beta
    corecore